RGB-D对象跟踪最近引起了广泛的关注,这得益于视觉和深度通道之间的共生能力。但是,鉴于有限的注释RGB-D跟踪数据,大多数最先进的RGB-D跟踪器是高性能RGB的简单扩展程序,而无需完全利用深度通道中深度通道的潜在潜力离线训练阶段。为了解决数据集缺乏问题,本文发布了一个名为RGBD1K的新的RGB-D数据集。 RGBD1K包含1,050个序列,总计约250万帧。为了证明对较大的RGB-D数据集的培训的好处,尤其是RGBD1K,我们开发了一个基于变压器的RGB-D跟踪器,名为SPT,是使用新数据集的未来视觉对象跟踪研究的基线。使用SPT跟踪器进行的广泛实验的结果表明,RGBD1K数据集的潜力可以提高RGB-D跟踪的性能,从而激发了有效跟踪器设计的未来发展。数据集和代码将在项目主页上提供:https://will.be.available.at.at.this.website。
translated by 谷歌翻译
作为一项结构化的预测任务,场景图生成给定输入图像,旨在通过构造视觉上的场景图来明确建模对象及其关系。在当前的文献中,这种任务是通过传递基于神经网络的均值差异贝叶斯方法的消息普遍解决的。经典的宽松证据下结合通常被选择为变异推理目标,这可能会诱导过分简化的变分近似,从而低估了下面的复合物后部。在本文中,我们提出了一种新颖的双重重视重要的加权结构学习方法,该方法采用更严重的加权下限作为变异推理目标。它是从从可重新聚集的gumbel-softmax采样器中绘制的多个样品中计算得出的,所得约束的变异推理任务由通用的熵镜下降算法求解。由此产生的双重重聚梯度估计器可降低相应的衍生物的方差,对学习产生有益的影响。所提出的方法在各种流行场景图生成基准测试中实现了最先进的性能。
translated by 谷歌翻译
基于图像集的视觉分类方法已通过以对称正定(SPD)歧管上的非单个协方差矩阵来表征图像集来实现出色的性能。为了更好地适应复杂的视觉场景,最近研究了一些用于SPD矩阵非线性处理的Riemannian网络(Riemnets)。但是,有必要问,是否可以通过简单地增加骚扰的深度来实现更大的准确性提高。答案似乎是负面的,因为更深层次的riemnets倾向于失去概括能力。为了探索这个问题的可能解决方案,我们为SPD矩阵学习提供了新的体系结构。具体来说,为了丰富深层表示,我们采用spdnet [1]作为骨干,并用堆叠的里曼式自动编码器(SRAE)构建在尾巴上。相关的重建误差项可以使SRAE和每个RAE的嵌入功能成为近似身份映射,这有助于防止统计信息的降级。然后,我们插入具有快捷方式连接的几个残留式块,以增强SRAE的表示能力,并简化更深层的网络的训练。实验证据表明,随着网络深度的增加,我们的DreamNet可以提高准确性。
translated by 谷歌翻译
场景图一代旨在通过显式建模潜在对象及其关系来解释输入图像,这主要由先前的方法通过神经网络模型来解决。目前,这种近似模型通常假设输出变量完全独立,因此忽略了信息性的高阶交互。这可能导致输入图像的不一致解释。在本文中,我们提出了一种新的神经信仰传播方法来产生所得到的场景图。它采用结构贝尔近似而不是平均场近似,以推断相关的边缘。为了找到更好的偏差方差权衡,所提出的模型不仅包含成对交互,而且还包含更高的顺序相互作用进入相关的评分功能。它达到了各种流行的场景图生成基准的最先进的性能。
translated by 谷歌翻译
自我监督的预制是自然语言处理模型的首选方法,在许多愿景任务中迅速获得普及。最近,自我监督的预借鉴已经显示出胜过许多下游视觉应用的预测,标志着该地区的里程碑。这种优越性归因于传达多个概念的训练图像的不完全标记的负面影响,而是使用单个主要类标签进行注释。虽然自我监督的学习(SSL)原则上没有这种限制,但促进SSL的借口任务的选择是通过向单个概念输出驱动学习过程来实现这种缺点。本研究旨在调查在不使用标签的情况下建模图像中存在的所有概念的可能性。在这方面,所提出的SSL帧工作MC-SSL0.0是迈向多概念自我监督学习(MC-SSL)的步骤,其超出了在图像中建模的单一主导标签,以有效地利用来自所有概念的所有概念在里面。 MC-SSL0.0由两个核心设计概念,组屏蔽模型学习和学习伪概念,用于使用势头(教师学生)框架的数据令牌。多标签和多类图像分类下游任务的实验结果表明,MC-SSL0.0不仅超越了现有的SSL方法,而且超越了监督转移学习。源代码将公开可供社区培训更大的语料库。
translated by 谷歌翻译
随着计算机愿景中变压器架构的普及,研究焦点已转向开发计算有效的设计。基于窗口的本地关注是最近作品采用的主要技术之一。这些方法以非常小的贴片尺寸和小的嵌入尺寸开始,然后执行冲击卷积(贴片合并),以减少特征图尺寸并增加嵌入尺寸,因此,形成像设计的金字塔卷积神经网络(CNN)。在这项工作中,我们通过呈现一种新的各向同性架构,调查变压器中的本地和全球信息建模,以便采用当地窗口和特殊令牌,称为超级令牌,以自我关注。具体地,将单个超级令牌分配给每个图像窗口,该窗口捕获该窗口的丰富本地细节。然后使用这些令牌用于跨窗口通信和全局代表学习。因此,大多数学习都独立于较高层次的图像补丁$(n)$,并且仅基于超级令牌$(n / m ^ 2)$何处,从中学习额外的嵌入量窗口大小。在ImageNet-1K上的标准图像分类中,所提出的基于超代币的变压器(STT-S25)实现了83.5 \%的精度,其等同于带有大约一半参数(49M)的Swin变压器(Swin-B)和推断的两倍时间吞吐量。建议的超级令牌变压器为可视识别任务提供轻量级和有前途的骨干。
translated by 谷歌翻译
展示了在欧洲生物安全卓越网络框架内设计和获取的新的多模态生物识别数据库。它由600多个个人在三种情况下在三种情况下获得:1)在互联网上,2)在带台式PC的办公环境中,以及3)在室内/室外环境中,具有移动便携式硬件。这三种方案包括音频/视频数据的共同部分。此外,已使用桌面PC和移动便携式硬件获取签名和指纹数据。此外,使用桌面PC在第二个方案中获取手和虹膜数据。收购事项已于11名欧洲机构进行。 BioSecure多模式数据库(BMDB)的其他功能有:两个采集会话,在某些方式的几种传感器,均衡性别和年龄分布,多式化现实情景,每种方式,跨欧洲多样性,人口统计数据的可用性,以及人口统计数据的可用性与其他多模式数据库的兼容性。 BMDB的新型收购条件允许我们对单币或多模式生物识别系统进行新的具有挑战性的研究和评估,如最近的生物安全的多模式评估活动。还给出了该活动的描述,包括来自新数据库的单个模式的基线结果。预计数据库将通过2008年通过生物安全协会进行研究目的
translated by 谷歌翻译
通过生物手段自动验证一个人的身份是在每天的日常活动,如在机场访问银行服务和安全控制的一个重要应用。为了提高系统的可靠性,通常使用几个生物识别设备。这种组合系统被称为多模式生物测定系统。本文报道生物安全DS2(访问控制)评估由英国萨里大学举办的活动,包括面部,指纹和虹膜的个人认证生物特征的框架内进行基准研究,在媒体针对物理访问控制中的应用-size建立一些500人。虽然多峰生物测定是公调查对象,不存在基准融合算法的比较。朝着这个目标努力,我们设计了两组实验:质量依赖性和成本敏感的评估。质量依赖性评价旨在评估融合算法如何可以在变化的原始图像的质量主要是由于设备的变化来执行。在对成本敏感的评价,另一方面,研究了一种融合算法可以如何执行给定的受限的计算和在软件和硬件故障的存在,从而导致错误,例如失败到获取和失败到匹配。由于多个捕捉设备可用,融合算法应该能够处理这种非理想但仍然真实的场景。在这两种评价中,各融合算法被提供有从每个生物统计比较子系统以及两个模板和查询数据的质量度量得分。在活动的号召的响应证明是非常令人鼓舞的,与提交22个融合系统。据我们所知,这是第一次尝试基准品质为基础多模态融合算法。
translated by 谷歌翻译
近年来,变压器架构目睹了快速发展,优于许多计算机视觉任务中的CNN架构,如视觉变压器(VIV)用于图像分类。然而,现有的视觉变压器模型旨在提取用于高级任务的语义信息,例如分类和检测。这些方法忽略输入图像的空间分辨率的重要性,从而牺牲相邻像素的局部相关信息。在本文中,我们提出了一个贴片金字塔变换器(PPT),以有效地解决上述问题。一致地,我们首先设计一个贴片变换器,将图像转换为一系列补丁,其中对每个修补程序执行变压器编码以提取本地表示。此外,我们构建了金字塔变换器,以有效地从整个图像中提取非本地信息。在获得原始图像的一组多尺度,多维和多角度特征之后,我们设计图像重建网络,以确保可以将特征重建为原始输入。为了验证有效性,我们将建议的贴片金字塔变压器应用于图像融合任务。实验结果表明其具有卓越的性能,而最先进的融合方法,在几种评估指标上实现了最佳结果。由于PPT网络的潜在代表性容量,它可以直接应用于不同的图像融合任务,而无需重新设计或再培训网络。
translated by 谷歌翻译
由于其最近在减少监督学习的差距方面取得了成功,自我监督的学习方法正在增加计算机愿景的牵引力。在自然语言处理(NLP)中,自我监督的学习和变形金刚已经是选择的方法。最近的文献表明,变压器也在计算机愿景中越来越受欢迎。到目前为止,当使用大规模监督数据或某种共同监督时,视觉变压器已被证明可以很好地工作。在教师网络方面。这些监督的普试视觉变压器在下游任务中实现了非常好的变化,变化最小。在这项工作中,我们调查自我监督学习的预用图像/视觉变压器,然后使用它们进行下游分类任务的优点。我们提出了自我监督的视觉变压器(坐在)并讨论了几种自我监督的培训机制,以获得借口模型。静坐的架构灵活性允许我们将其用作自动统计器,并无缝地使用多个自我监控任务。我们表明,可以在小规模数据集上进行预训练,以便在小型数据集上进行下游分类任务,包括几千个图像而不是数百万的图像。使用公共协议对所提出的方法进行评估标准数据集。结果展示了变压器的强度及其对自我监督学习的适用性。我们通过大边缘表现出现有的自我监督学习方法。我们还观察到坐着很好,很少有镜头学习,并且还表明它通过简单地训练从坐的学到的学习功能的线性分类器来学习有用的表示。预先训练,FineTuning和评估代码将在以下:https://github.com/sara-ahmed/sit。
translated by 谷歌翻译